5.2 批次校正 EMP_adjust_abudance
批次效应(batch effect)是指在数据采集过程中由于各种因素导致的系统性变异,而与研究变量无关。批次效应通常由以下原因导致:实验的不同部分在不同时间完成、实验条件的变化(包括:仪器、试剂批次、试剂用量、测序批次等)、数据来源不同(例如:将自己的数据集与公共数据集整合分析)等。批次效应的存在可能对数据分析和结果解释产生影响,而寻常的标准化方法不足以调整批次之间的差异。模块EMP_adjust_abudance
可帮助用户有效地解决批次效应的校正问题,其包含了三种最常用的校正方法:combat_seq、combat和limma_remove_batch_effect。这些方法均可以通过缩小批次效应来提高数据的可比性和可靠性。
在进行批次校正前,需要将不同批次的组学项目数据整合在一个数据文件中。
5.2.1 combat方法
该模块引用了sva
包的 comBat
算法用于校正批次效应。comBat
使用参数或非参数经验贝叶斯模型来校正批次效应,输入的数据为已经清洗、标准化的表达数据,返回的是一个已针对批次效应进行校正的表达矩阵。
🏷️示例:
使用模块EMP_assay_extract
提取组学项目geno_ko
的assay,并利用模块EMP_adjust_abudance
中的参数.factor_unwanted
指定不感兴趣的因素(即:需要进行批次校正的因素)是Region
,参数.factor_of_interest
指定感兴趣的因素是'Group'
,参数method
指定使用'combat'
方法进行批次效应校正。
MAE |>
EMP_assay_extract(experiment='geno_ko') |>
EMP_adjust_abundance(.factor_unwanted = 'Region',.factor_of_interest = 'Group',
method = 'combat')
5.2.2 combat_seq方法
该模块引用了sva
包的 comBat_seq
模块用于校正批次效应。comBat_seq
是 combat
的改进模型,使用负二项式回归,专门针对 RNA-Seq 计数数据。
🏷️示例:
MAE |>
EMP_assay_extract(experiment='geno_ko') |>
EMP_adjust_abundance(.factor_unwanted = 'Region',.factor_of_interest = 'Group',
method = 'combat_seq')
5.2.3 limma_remove_batch_effect方法
该模块引用了limma
包的 removeBatchEffect
模块用于校正批次效应。该模块通常用于微阵列数据或RNA测序数据批次效应的去除。
🏷️示例:
MAE |>
EMP_assay_extract(experiment='geno_ko') |>
EMP_adjust_abundance(.factor_unwanted = 'Region',.factor_of_interest = 'Group',
method = 'limma_remove_batch_effect')